模型预测模型10 决策树简介

决策树¶

决策树是一种强大且流行的分类和预测工具。它类似于树结构的流程图，其中每个内部节点表示对某个属性的测试，每个分支表示测试的结果，每个叶节点(终端节点)持有一个类标签。

上图表示最终是否选择“打网球”的决策过程。

决策树的构建¶

可以通过基于属性值测试将源集分割为子集来构建决策树。这个过程以递归的方式在每个派生的子集上重复，称为递归划分。当节点上的子集都具有目标变量的相同值，或者当分割不再为预测增加值时，递归就完成了。决策树分类器的构建不需要任何领域知识或参数设置，因此适合于探索性知识发现。决策树可以处理高维数据。一般情况下，决策树分类器具有较好的精度。决策树归纳法是学习分类知识的一种典型的归纳方法。

决策树表示¶

决策树通过从根节点到某个叶节点对实例进行排序来对实例进行分类，叶节点提供了实例的分类。实例从树的根节点开始分类，测试该节点指定的属性，然后向下移动与属性值对应的树分支，如上图所示。然后对根在新节点的子树重复此过程。上图中的决策树根据是否适合打网球对一个特定的早晨进行分类，并返回与该叶子相关的分类。(在这种情况下是或否)。

我们可以说决策树代表了对实例属性值进行逻辑判断 $$ (Outlook = Sunny \wedge Humidity = Normal)\vee (Outlook = Overcast) \vee (Outlook = Rain \wedge Wind = Weak) $$

优缺点¶

决策树方法的优点是:

能够生成可理解的规则。
执行分类时不需要太多的计算。
能够同时处理连续变量和分类变量。
明确指出哪些字段对预测或分类最重要。

决策树方法的缺点:

不太适合用于目标是预测连续属性值的评估任务。
在分类问题中容易出现错误，因为分类类多，训练示例相对较少。
训练决策树的计算成本很高。

参考资料

https://www.geeksforgeeks.org/decision-tree/?ref=leftbar-rightbar
Machine Learning, Tom Mitchell, McGraw Hill, 1997.

数学模型

决策树¶

决策树的构建¶

决策树表示¶

优缺点¶